K means là gì? Các công bố khoa học về K means

K-means là một thuật toán trong học không giám sát được sử dụng để phân nhóm dữ liệu không được gán nhãn vào các cụm khác nhau. Thuật toán này hoạt động bằng cá...

K-means là một thuật toán trong học không giám sát được sử dụng để phân nhóm dữ liệu không được gán nhãn vào các cụm khác nhau. Thuật toán này hoạt động bằng cách xác định các cụm dựa trên sự tương đồng giữa các điểm dữ liệu trong không gian. Mục tiêu của thuật toán là làm cho các điểm dữ liệu trong cùng một nhóm giống nhau nhất có thể và khác với các điểm trong nhóm khác. K-means là một trong những thuật toán phân cụm đơn giản và phổ biến được sử dụng rộng rãi trong các lĩnh vực như xử lý ảnh, khai phá dữ liệu và học máy.
K-means là một thuật toán phân cụm được áp dụng trên dữ liệu không được gán nhãn, trong đó mỗi mẫu dữ liệu được gán vào cụm gần nhất dựa trên sự tương đồng giữa chúng. Thuật toán này được phát triển bởi Stuart Lloyd vào năm 1957 và sau đó được nhà toán học người Pháp Jean-Pierre Hartigan và Marc Vittert khám phá lại và phổ biến trong năm 1963.

Cách hoạt động của thuật toán K-means như sau:

1. Chuẩn bị dữ liệu: Chuẩn bị dữ liệu và chọn số cụm K mà chúng ta muốn dự đoán. Số lượng cụm cần được xác định trước khi chạy thuật toán.

2. Khởi tạo ngẫu nhiên các trung tâm cụm ban đầu: Chọn ngẫu nhiên K điểm dữ liệu làm trung tâm ban đầu cho các cụm.

3. Gán mỗi điểm dữ liệu vào cụm gần nhất: Với mỗi điểm dữ liệu, tính toán khoảng cách của nó đến các trung tâm cụm và gán điểm dữ liệu vào cụm có trung tâm gần nhất.

4. Cập nhật trung tâm cụm: Tính toán trung tâm mới cho mỗi cụm bằng cách lấy trung bình của tất cả các điểm dữ liệu thuộc cụm đó.

5. Lặp lại các bước 3 và 4 cho đến khi sự thay đổi giữa các trung tâm cụm liên tiếp ít hơn một ngưỡng xác định hoặc đạt đến số lần lặp tối đa.

6. Đầu ra: Kết quả cuối cùng của thuật toán K-means là một tập hợp các cụm, mỗi cụm bao gồm các điểm dữ liệu được gán vào cùng một cụm.

Thuật toán K-means có một số ưu điểm, bao gồm tính đơn giản, hiệu quả tính toán và khả năng mở rộng cho các tập dữ liệu lớn. Tuy nhiên, nó cũng có một số hạn chế, như nhạy cảm với vị trí ban đầu của các trung tâm cụm và không đảm bảo tìm ra kết quả tối ưu toàn cục. Để thực hiện thuật toán K-means, có thể sử dụng các ngôn ngữ lập trình như Python, R, và MATLAB.

Danh sách công bố khoa học về chủ đề "k means":

Algorithm AS 136: A K-Means Clustering Algorithm
Journal of the Royal Statistical Society. Series C: Applied Statistics - Tập 28 Số 1 - Trang 100 - 1979
Hướng Tới Một Phương Pháp Luận Phát Triển Tri Thức Quản Lý Dựa Trên Bằng Chứng Thông Qua Đánh Giá Hệ Thống Dịch bởi AI
British Journal of Management - Tập 14 Số 3 - Trang 207-222 - 2003

Tiến hành một đánh giá về văn liệu là một phần quan trọng của bất kỳ dự án nghiên cứu nào. Nhà nghiên cứu có thể xác định và đánh giá lãnh thổ tri thức liên quan để chỉ định một câu hỏi nghiên cứu nhằm phát triển thêm cơ sở tri thức. Tuy nhiên, các bản đánh giá 'mô tả' truyền thống thường thiếu tính toàn diện, và trong nhiều trường hợp, không được thực hiện như những mảnh ghép đích thực của khoa học điều tra. Do đó, chúng có thể thiếu phương tiện để hiểu những gì tập hợp các nghiên cứu đang nói. Những đánh giá này có thể bị nghiên cứu viên thiên vị và thường thiếu đi tính chặt chẽ. Hơn nữa, việc sử dụng các đánh giá về bằng chứng sẵn có để cung cấp cái nhìn sâu sắc và hướng dẫn cho can thiệp vào nhu cầu hoạt động của người thực hành và nhà làm chính sách chủ yếu là yếu tố thứ cấp. Đối với người thực hành, việc hiểu một khối chứng cứ thường mang tính mâu thuẫn đã trở nên ngày càng khó khăn hơn. Chất lượng của bằng chứng hỗ trợ việc ra quyết định và hành động đã bị đặt dấu hỏi, vì bằng chứng không đầy đủ hoặc hoàn chỉnh nghiêm trọng cản trở việc hình thành và thực thi chính sách. Khi nghiên cứu các cách mà các đánh giá quản lý dựa trên bằng chứng có thể đạt được, các tác giả đánh giá quy trình đánh giá hệ thống được sử dụng trong khoa học y học. Trong 15 năm qua, khoa học y học đã cố gắng cải thiện quy trình đánh giá bằng cách tổng hợp nghiên cứu một cách hệ thống, minh bạch và tái sản xuất với cả hai mục tiêu nâng cao cơ sở tri thức và thông tin hoá việc ra quyết định chính sách và thực hành. Bài báo này đánh giá mức độ mà quy trình đánh giá hệ thống có thể được áp dụng cho lĩnh vực quản lý nhằm tạo ra một khối dự trữ tri thức đáng tin cậy và nâng cao thực hành bằng cách phát triển nghiên cứu nhạy cảm với bối cảnh. Bài viết nêu bật các thách thức trong việc phát triển một phương pháp luận thích hợp.

#phương pháp đánh giá hệ thống #nghiên cứu quản lý #phát triển tri thức #bằng chứng #chính sách #thực hành #quản lý thông tin #khoa học y học
Analysis of crack formation and crack growth in concrete by means of fracture mechanics and finite elements
Cement and Concrete Research - Tập 6 Số 6 - Trang 773-781 - 1976
An efficient k-means clustering algorithm: analysis and implementation
IEEE Transactions on Pattern Analysis and Machine Intelligence - Tập 24 Số 7 - Trang 881-892 - 2002
Phân Hiện Biểu Hiện Khác Nhau Của RNA Thông Tin Eukaryote Bằng Phương Pháp Chuỗi Polymerase Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 257 Số 5072 - Trang 967-971 - 1992

Cần có những phương pháp hiệu quả để xác định và tách biệt những gen có biểu hiện khác nhau trong các tế bào khác nhau hoặc trong các điều kiện thay đổi. Báo cáo này mô tả một phương pháp để phân tách và nhân bản các RNA thông tin (mRNA) riêng lẻ thông qua phản ứng chuỗi polymerase. Yếu tố chính là sử dụng một bộ các mồi oligonucleotide, một mồi được gắn vào đuôi polyadenylate của một tập hợp con mRNA, và mồi còn lại ngắn và có trình tự ngẫu nhiên để nó có thể liên kết tại các vị trí khác nhau tương ứng với mồi đầu tiên. Các phân nhóm mRNA được định nghĩa bởi các cặp mồi này đã được tăng cường sau khi phiên mã ngược và được tách biệt trên một gel kết hợp DNA. Khi sử dụng nhiều bộ mồi, các mẫu DNA bổ sung đã được khuếch đại cho thấy các mẫu lặp lại có được, có sự phụ thuộc mạnh vào tính đặc hiệu của trình tự tại từng mồi.

Các phương pháp đơn giản để cải thiện khả năng giải thích của các hệ số hồi quy Dịch bởi AI
Methods in Ecology and Evolution - Tập 1 Số 2 - Trang 103-113 - 2010
Tóm tắt

1. Các mô hình hồi quy tuyến tính là một công cụ thống kê quan trọng trong các nghiên cứu tiến hóa và sinh thái. Thật không may, những mô hình này thường cho ra những ước lượng và kiểm nghiệm giả thuyết không thể giải thích được, đặc biệt là khi các mô hình bao gồm sự tương tác hoặc các hạng tử đa thức. Hơn nữa, các sai số chuẩn cho các nhóm điều trị, mặc dù thường được quan tâm trong việc đưa vào một ấn phẩm, lại không có sẵn trực tiếp trong mô hình hồi quy tuyến tính chuẩn.

2. Việc trung tâm hóa và chuẩn hóa các biến đầu vào là những phương pháp đơn giản để cải thiện khả năng giải thích của các hệ số hồi quy. Hơn nữa, việc sửa lại mô hình với cấu trúc mô hình hơi thay đổi cho phép rút ra các sai số chuẩn thích hợp cho các nhóm điều trị trực tiếp từ mô hình.

3. Việc trung tâm hóa sẽ làm cho các hiệu ứng chính có thể giải thích về mặt sinh học ngay cả khi có liên quan đến các sự tương tác, do đó tránh được sự diễn giải sai có thể xảy ra của các hiệu ứng chính. Điều này cũng áp dụng cho việc ước lượng các hiệu ứng tuyến tính trong sự hiện diện của các đa thức. Các biến đầu vào phân loại cũng có thể được trung tâm hóa và điều này đôi khi hỗ trợ cho việc giải thích.

4. Việc chuẩn hóa (z‐biến đổi) các biến đầu vào sẽ dẫn đến việc ước lượng độ dốc chuẩn hóa hoặc các hệ số hồi quy phần chuẩn hóa. Các độ dốc chuẩn hóa có thể so sánh được về độ lớn trong các mô hình cũng như giữa các nghiên cứu. Chúng có một số lợi thế hơn các hệ số tương quan phần và thường là kích thước tác động chuẩn hóa thú vị hơn.

5. Việc loại bỏ một cách suy nghĩ các giao điểm hoặc hiệu ứng chính cho phép rút ra các trung bình điều trị hoặc độ dốc điều trị và các sai số chuẩn thích hợp của chúng trực tiếp từ một mô hình hồi quy tuyến tính. Điều này cung cấp một lựa chọn đơn giản thay thế cho việc tính sai số chuẩn phức tạp hơn từ các tương phản và các hiệu ứng chính.

6. Các phương pháp đơn giản được trình bày ở đây tập trung vào ước lượng tham số (ước lượng điểm cũng như khoảng tin cậy) hơn là vào ngưỡng ý nghĩa. Chúng cho phép điều chỉnh các mô hình phức tạp nhưng có nghĩa có thể được trình bày và giải thích một cách ngắn gọn. Các phương pháp được trình bày cũng có thể áp dụng cho các mô hình hồi quy tuyến tính tổng quát (GLM) và các mô hình hồi quy hỗn hợp tuyến tính.

Xây dựng các bản đồ liên kết gen di truyền tích hợp bằng cách sử dụng gói phần mềm máy tính mới: Join Map Dịch bởi AI
Plant Journal - Tập 3 Số 5 - Trang 739-744 - 1993
Tóm tắt

Quy trình lập bản đồ gen tích hợp bằng máy tính được trình bày. Chương trình máy tính (Join Map) có thể xử lý dữ liệu thô từ các giống F2, quay lại (backcrosses) và các dòng thuần sau tái phối (recombinant inbred lines), cũng như các tần suất tái tổ hợp theo cặp đã được liệt kê. Quy trình này hữu ích cho việc kết hợp dữ liệu liên kết đã được thu thập từ các thí nghiệm khác nhau; kết quả là một sự căn chỉnh toán học của các bản đồ gen riêng biệt. Dữ liệu từ các thí nghiệm đơn lẻ cũng có thể được xử lý. Trong bối cảnh lượng thông tin liên kết cho các dấu hiệu phân tử đang ngày càng gia tăng và thường được tạo ra bởi các nhóm nghiên cứu khác nhau, các bản đồ tích hợp cung cấp thông tin hữu ích về vị trí bản đồ của các gen và các dấu hiệu DNA.

Quy trình thực hiện việc xây dựng bản đồ theo từng bước và, tại mỗi bước, thực hiện tìm kiếm số cho thứ tự các dấu hiệu phù hợp nhất. Phương pháp bình phương tối thiểu có trọng số được sử dụng để ước lượng khoảng cách trên bản đồ.

Xúc tác Asymmetric với Nước: Giải Quyết Kinetics Hiệu Quả của các Epoxide Cuối Bằng Phương Pháp Thủy Phân Xúc Tác Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 277 Số 5328 - Trang 936-938 - 1997

Các epoxide là những khối xây dựng đa năng cho tổng hợp hữu cơ. Tuy nhiên, các epoxide đầu có thể được coi là phân nhóm quan trọng nhất của những hợp chất này, và hiện chưa có phương pháp tổng hợp tổng quát và thực tiễn nào cho việc sản xuất chúng dưới dạng tinh khiết đồng phân. Các epoxide đầu có sẵn với giá rất rẻ dưới dạng hỗn hợp racemic, và giải quyết động học là một chiến lược hấp dẫn cho việc sản xuất các epoxide quang hoạt, với một phương pháp kinh tế và dễ thực hiện. Các chất xúc tác tổng hợp có sẵn (các phức cobalt chiral dựa trên salen) đã được sử dụng cho quá trình thủy phân không đối xứng hiệu quả của các epoxide đầu. Quá trình này sử dụng nước làm tác nhân duy nhất, không có dung môi bổ sung, và nồng độ thấp của một chất xúc tác có thể tái chế (<0,5% mol), và nó cung cấp các epoxide đầu rất quý giá cũng như 1,2-diol với năng suất cao và sự làm giàu đồng phân cao.

#epoxide #xúc tác không đối xứng #thủy phân #giải quyết động học #cobalt chiral #1 #2-diol
An Optimized Blockwise Nonlocal Means Denoising Filter for 3-D Magnetic Resonance Images
IEEE Transactions on Medical Imaging - Tập 27 Số 4 - Trang 425-441 - 2008
On the Performance of Maximum Likelihood Versus Means and Variance Adjusted Weighted Least Squares Estimation in CFA
Structural Equation Modeling - Tập 13 Số 2 - Trang 186-203 - 2006
Tổng số: 3,028   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10